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摘 要 : 为 了 提高 人 体 动作 视频 检索 的 鲁 棒 性 和 效 座 ,提出 了 一 种 模糊 加 权 的 人 体 动作 视频 检索 方法 。 该 方法 采用 3D 
Harris 算 子 检测 视频 中 的 时 空 兴趣 点 ， 提 取 这 些 兴 趣 点 的 梯度 信息 ， 构 建 特征 向 量 ; 然后 采用 模糊 聚 类 方法 构建 聚 类 
特征 向 量 ， 提 高 特征 向 量 的 抗 干扰 能 力 ; 接着 匹配 聚 类 特征 向 量 中 的 梯度 向 量 对 ， 构 建 模糊 权重 矩阵 ， 计 算 查 询 视 频 
与 数据 库 中 各 个 视频 的 相似 度 ; 最 后 在 KTH 数据 库 上 进行 视频 检索 实验 ,结合 精确 度 、 召 回 率 和 检索 耗 时 三 个 指标 进 
行 评价 ， 证 明 该 方法 的 性 能 最 优 。 
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Abstract: In order to improve the robustness and efficiency of video retrieval for human activity, this paper proposed a fuzzy 
weighted method for human activity video retrieval. This method used 3D Harris operator to detect the spatio-temporal interest 


points in the video, and extracted the gradient information of these points to construct feature vector to describe video. Then it 


used fuzzy clustering method to construct uses fuzzy clustering feature vector, to improve the ability of anti-interference of 
feature vector. And then, it matched pair of gradient vector in the fuzzy clustering feature vectors to construct fuzzy weight 
matrix, and calculated the similarity between the query video and each video in the database. Finally, it carried out the video 


retrieval experiment on the KTH database, and carried the evaluation out with three metrics of accuracy, recall and retrieval 


time, which proved that the performance of this method is the best. 
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识别 的 关键 是 设计 和 鲁 棒 的 行为 描述 特征 和 构建 合理 的 特征 分 类 

器。 尽管 人 体 动作 视频 检索 以 人 体 动作 行为 识别 为 基础 , 但 

随 着 互联 网 和 多 媒体 技术 的 发 展 ， 文 本 、 图 像 、 视 频 等 妆 是 两 者 之 间 还 是 有 明显 差异 的 ， 主 要 表现 在 人 体 动作 视频 检索 

据 呈 几何 级 数 增长 ， 这 对 数据 检索 技术 提出 了 更 多 的 需求 和 挑 所 用 的 训练 样本 只 有 一 个 ， 也 即 查 询 视频 。 这 样 情况 下 ， 人 体 
战 。 文 本 和 图 像 检 索 技 术 已 经 发 展 多 年 ， 成 果 很 多 。 而 视频 检 ， ”动作 视频 检索 时 不 能 像 人 体 动作 行为 识别 那样 通过 许多 样本 的 
索 技 术 作 为 一 个 新 的 研究 方向 ， 近 些 年 受到 的 关注 越 来 越 多 。 学 习 来 构建 分 类 器 ， 只 能 通过 相似 度 的 计算 来 推断 视频 之 间 的 
针对 视频 内 容 的 不 同 ， 视 频 检索 技术 的 研究 也 有 不 少 差异 。 本 ”相关 性 ， 这 样 难度 相对 更 大 。 而 且 视 频 检索 系统 对 检索 效率 的 
文 主要 研究 人 体 动作 视频 的 检索 技术 ， 此 类 技术 的 应 用 需求 更 。 要 求 一 般 比 较 高 ， 因 此 在 设计 视频 检索 算法 时 还 要 考虑 时 效 性 
急迫 。 该 视频 检索 技术 是 以 人 体 动作 行为 识别 技术 为 基础 的 上 。 ”的 问题 。 目 前 ， 人 体 动 作 视 频 检索 领域 也 有 一 些 研究 成 果 ， 例 
人 体 动作 行为 识别 是 一 种 模式 识别 技术 ， 该 技术 将 不 同 的 人 体 ”如 文献 [3] 提 出 了 一 种 快速 的 特征 对 应 方法 来 计算 作为 相似 性 
动作 行为 描述 为 不 同 的 模式 ， 通 过 机 器 学 习 等 方法 构建 不 同 模 ”度量 的 匹配 花费 ， 然 后 将 相似 性 度量 嵌入 到 动作 检索 的 多 重 排 
式 的 分 类 器 ， 实 现 人 体 动作 行为 的 分 类 和 识别 。 人 体 动作 行为 。” 序 框架 中 , 实现 快速 的 视频 检索 。 文 献 [6] 提 出 了 一 种 具有 SVM 
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相关 性 反馈 的 视频 检索 系统 ， 引 入 主动 学 习 方 法 ， 提 高 视频 检  ， 体 遮 挡 、 人 体 轮廓 提取 不 完整 等 因素 影响 较 大 。 光 流 特征 提取 
索性 能 。 文 献 [7] 使 用 视频 上 下 文 信息 进行 建 模 ， 引 入 半 监 督学 的 是 目标 像素 点 的 瞬时 运动 特征 ， 能 够 反映 目标 运动 的 速度 和 
习 范 式 启发 算法 ， 可 以 通过 很 少 的 样本 有 效 地 建 模 动作 模型 ， 方向 信息 ， 但 是 受 成 像 条 件 〈 如 目标 距离 摄像 机 远近 、 摄 像 机 
提高 视频 检索 准确 性 。 然 而 现 有 方法 的 鲁 棒 性 和 时 效 性 都 不 是 。 视 场 等 ) 影响 较 大 ， 且 运算 效率 偏 低 。 时 空 特征 是 针对 人 体 动 
很 高 。 为 了 提高 人 体 动 作 视 频 的 检索 效率 和 和 鲁 棒 性 ， 本 文 提出 ”” 作 在 场景 中 的 特殊 性 构建 的 描述 算 子 ， 常 用 的 有 时 空 兴趣 点 和 
了 一 种 模糊 加 权 的 人 体 动作 视频 检索 方法 。 主 要 贡献 在 于 引入 ”时空 上 下 文 特征 ， 是 目前 人 体 动作 识别 领域 应 用 最 多 的 特征 。 
模糊 聚 类 方法 构建 聚 类 特征 向 量 , 提高 特征 向 量 的 抗 干扰 能 力 ; 时 空 兴趣 点 是 采用 一 些 不 关联 的 点 的 特征 来 描述 人 体 的 动作 信 
构建 模糊 权重 矩阵 修正 欧 氏 距离 测度 ， 提 高 相似 度 计算 的 鲁 棒 ” 息 。 常 用 的 时 空 兴趣 点 检测 方法 有 3D-Harris、SIFT 和 Dollar 算 
性 。 同 时 本 文 方法 的 运算 复杂 度 低 、 运 算 效率 高 。 子 。 通 过 这 些 算 子 检测 时 空 兴趣 点 ， 然 后 提取 时 空 兴趣 点 的 特 
FE， 如 方向 梯度 直方 图 特征 、 时 空 局 部 回归 核 (space-time local 
egression kernels) 特 征 等 。 时 空 上 下 文 特征 通过 场景 上 下 文 、 空 
闻 上 下 文 和 和 尺度 上 下 文 来 提取 特征 ， 构 建 动作 场景 中 动作 与 
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1 ”人 体 动作 行为 识别 概述 


人 体 动作 行为 识别 是 计算 机 视觉 研究 的 一 个 热点 ， 其 目标 


rs 


是 从 一 个 未 知 的 视频 或 者 图 像 序列 中 自动 分 析 其 中 正在 进行 的 。 人 所 处 环境 的 相互 关系 ， 可 采用 马 可 夫 逻辑 网 (Markov logic 
人 体 动作 行为 ， 并 识别 该 动作 行为 的 类 别 。 上 典型 的 人 体 动作 行 。“” network) 来 描述 。 深 度 特征 是 在 时 空 特征 的 基础 上 又 加 入 了 空 
为 识别 框架 9 如 图 1 所 示 。 间 深 度 信息 ， 这 要 求 采集 设备 能 够 获取 场景 的 深度 信息 ， 应 用 
比较 受 限 。 

We 动作 特征 的 理解 与 分 类 是 将 提取 到 的 人 体 动作 行为 特征 与 
LU 已 经 学 习 好 的 先 验 知识 进行 对 比 ， 通 过 模式 识别 的 方式 实现 人 
运动 目标 检测 体 动作 的 理解 和 分 类 。 动 作 特征 理解 常用 的 模型 有 人 体 模 型 和 
统计 模型 两 类 。 人 体 模型 包括 二 维 的 棍 状 模型 、 带 状 模型 以 及 
动作 特征 提取 三 维 的 锥 面体 模型 等 ， 通 过 分 析 人 体 模型 的 变化 来 理解 人 体 的 
y 动作 行为 。 统 计 模型 包括 时 空 模板 、 动 态 规划 、 状 态 转移 模型 
Ye 等 ， 通 过 统计 视频 中 特征 的 变化 情况 来 理解 人 体 的 动作 行为 。 
动作 分 类 常用 到 机 器 学 习 方 法 ， 包 括 支持 向 量 机 、 随 机 森林 、 
输出 识别 结果 神经 网 络 等 ， 通 过 机 器 学 习 方 法 构建 动作 特征 分 类 器 ， 实 现 人 

图 1 典型 人 体 动作 行为 识别 流程 WA 

首先 ， 考 虑 到 动作 行为 的 运动 属性 ， 可 以 使 用 运动 目标 恰 ”人体 动 作 视频 检索 


测 技术 , 从 动作 视频 或 者 图 像 中 快速 提取 出 感 兴趣 的 目标 区 域 ， 给 定 一 个 待 检 索 的 人 体 动作 视频 ， 人 体 动作 视频 检索 算法 
降低 后 续 动 作 特 征 提 取 与 分 类 的 难度 。 运 动 目标 检测 目前 已 经 ” 需要 依据 该 视频 所 提取 出 的 人 体 动作 特征 ， 从 视频 数据 库 中 寻 
非常 成 熟 ， 常 用 的 有 帧 间 差 分 法 、 背 景 减 除法 和 光 流 法 。 考 虑 。 找 具 有 类 似 人 体 动 作 特 征 的 相关 视频 ,作为 检索 结果 进行 输出 。 
1 人 体 动作 行为 的 对 象 是 人 ， 因 此 在 运动 目标 检测 的 基础 上 ， 人 体 动 作 视频 检索 算法 主要 包括 两 个 核心 环节 ， 一 是 将 视频 描 
还 可 以 加 入 人 体 的 检测 方法 ， 例 如 采用 方向 梯度 直方 图 特征 和 ” ” 述 为 一 个 特征 向 量 ， 要 求 该 特征 向 量 可 以 描述 一 类 人 体 动作 ， 
持 向 量 机 分 类 器 对 运动 目标 的 属性 进行 检测 ， 辨 别 运动 目标 能 有 效 区 分 不 同类 别 的 人 体 动作 ;二 是 计算 视频 所 对 应 的 特 
区 域内 是 否 存在 人 体 。 如 果 不 存在 人 体 ， 则 后 续 不 需要 对 其 进 征 向 量 之 间 的 相似 度 ， 依 据 相似 度 检索 相关 的 视频 。 与 人 体 动 
行动 作 特 征 的 提取 和 分 类 操作 。 在 实际 的 人 体 动作 行为 识别 过 ， 作 行 为 识别 算法 相 比 ， 人 体 动作 视频 检索 算法 不 需要 对 行为 的 
程 中 ， 运 动 目标 检测 操作 并 不 是 必须 的 ， 因 为 有 些 人 体 动作 行 ”类 别 进行 具体 的 分 类 ， 而 只 需要 通过 相似 度 计 算 寻 找 与 待 检 索 
为 识别 算法 是 针对 整 幅 图 像 提取 特征 的 ， 不 便于 单独 针对 运动 视频 相似 的 动作 视频 。 人 体 动作 视频 检索 算法 更 关注 检索 的 时 
的 人 体 目标 区 域 提取 特征 。 效 性 和 尺度 的 鲁 棒 性 ， 这 两 个 方面 也 是 视频 检索 系统 面临 的 主 

动作 特征 提取 是 人 体 动作 行为 识别 的 关键 。 动 作 特征 不 仅 ”要 挑战 。 因 此 ， 人 体 动作 视频 检索 算法 在 借鉴 现 有 人 体 动作 行 
需要 充分 体现 不 同 动 作 之 间 的 差异 性 ， 而 且 还 需要 适应 同一 类 ”为 识别 算法 的 基础 上 ， 还 要 针对 视频 检索 所 面临 的 这 两 方面 挑 
动作 的 变化 。 常 用 的 动作 有 剪影 特征 、 光 流 特征 、 梯 度 特 征 、 战 进 行 适当 的 优化 和 改进 。 本 文 提 出 一 种 的 人 体 动作 视频 检索 
时 空 特征 和 深度 特征 等 。 剪 影 特 征 可 以 利用 目标 边界 点 构建 ， 方法 ， 基 本 思路 是 : 采用 时 空 兴趣 点 的 梯度 特征 构建 视频 的 特 
也 可 以 通过 形状 上 下 文 构建 , 如 剪影 能 量 图 像 (silhouette energy 征 向 量 ， 引 入 模糊 聚 类 方法 构建 聚 类 特征 向 量 ， 提 高 特征 向 量 
image) 特 征 、 剪 影 重 构 形状 (shape-from-silhouette) 特 征 等 。 剪影 ” 的 抗 干扰 能 力 ， 构 建 模糊 权重 矩阵 修正 欧 氏 距离 测度 ， 提 高 相 
特征 的 优点 是 受 颜 色 和 纹理 等 不 相关 特征 的 影响 较 小 ， 但 受 人  ” 似 度 计算 的 鲁 棒 性 。 本 文 方法 的 实现 流程 如 图 2 所 示 。 其 中 ， 
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时 空 兴趣 点 检测 和 特 生 


E 提 取 部 分 采用 的 是 人 体 动作 行为 识别 常 


hi 


2.1 


的 方法 


， 而 相似 度 计 算 部 分 是 本 文 的 重要 创新 。 详 细 描述 如 


输入 待 查询 视频 ] 


3D Harris 算 子 检测 
时 空 兴趣 点 


淋 


1 


提取 时 空 兴趣 点 的 梯度 
特征 向 量 


+ 


计算 模糊 加 权 的 特征 向 
量 相似 度 


视频 数据 库 与 聚 类 
特征 向 量 集合 


输出 相关 视频 


图 2 ”本文 方法 实现 流程 


时 空 兴趣 点 检测 
对 于 每 一 个 视频 ， 首 先 需 要 检测 时 空 兴趣 点 。 本 文采 用 常 


用 的 3D Harris 算 子 来 检测 时 空 兴趣 点 。3D Harris 算 子 是 在 空 


2.2 


。 当 检测 到 一 个 时 空 兴 


Ninaxiy 合 作 期 天 


张 ” 涵 ， 等 : 模糊 加 权 的 鲁 棒 人 体 动作 视频 检索 
特征 向 量 提取 
本 文采 用 时 空 兴趣 点 的 梯度 信息 来 构建 描述 视频 的 特征 向 


《 趣 点 之 后 ， 使 用 一 个 时 空 立方 体 ， 将 


向 


HH 
Ud 


度 描述 子 作 / 


j 于 每 一 个 立方 体 ， 计 算 时 空 兴 趣 点 的 主要 运动 
和 尺度 。 然 后 将 时 空 立方 体 每 一 个 轴 上 的 梯度 描述 子 的 结 
其 在 一 起 ， 构 成 一 个 特征 向 量 ， 称 为 时 空 兴 趣 点 的 梯度 向 


体 的 实现 过 程 详 见 文献 [11]。 需要 指出 的 是 ,本文 不 需要 


对 梯度 向 量 进行 降 维 
且 本 文 在 相似 度 计算 环节 会 通过 
的 计算 复杂 度 ， 与 文献 [11] 的 降 维 
效率 的 


后 ， 


该 视频 提取 的 到 于 


操作 ， 这 样 可 以 避免 造成 特征 的 损耗 。 而 
聚 类 操作 来 降低 特征 向 量 比 对 
操作 一 样 可 以 实现 提高 运算 
标 。 这 样 ， 得 到 视频 中 所 有 时 空 兴 趣 点 的 梯度 向 量 
构建 视频 的 特征 向 量 描述 子 。 假 设立 表示 任 一 视频 ， 
空 兴趣 点 的 数量 为 ， 对 应 的 特征 向 量 可 以 


即 可 


表示 


点 提取 的 特 4 


2.3 


值 聚 类 算法 ， 对 特征 
类 , 提高 特征 
假定 聚 类 中 心 妆 


FO 


Vy 
1 


域 的 2D Harris 算 子 的 基础 上 , 增加 一 个 时 间 维 度 得 到 的 , 其 检 
测 思 想 与 实现 步 又 与 空域 的 2D Harris 算 子 是 相同 的 。 首先， 需 
要 进行 尺度 变换 ， 用 尺度 空间 来 表示 视频 ， 具 体 为 
L(;o;7)=G(;0;7)*7 (1) 
其 中 : 是 空间 域 的 尺度 参数 ;是 时 间 域 的 尺度 参数 ;“*” 表 


示 卷 积 操 作 ; 


I 是 输入 视频 ; 核 函数 ， 可 以 表示 为 


四 | CO) 
(27) ovr 277 (207 £) 


G 十 局 上 


G(X, y,t;01;7) = 


定义 
E(u,v,p)= 


DG yD xtu, y+v tt p) Tx,y,p] (3) 


按照 泰勒 公式 展开 ， 得 到 矩阵 M 为 
到 LL y L, L 


M=G%yDxILL DL LL 
LL LL L 


进一步 地 ， 得 到 3D Harris 角 点 检测 算 子 : 


R= det(M ) —kx (trace(M)) 
. (5) 
= 外加 一 kx( 入 + 加 + 加) 


其 中 :det(M) 表 示 和 矩阵 M 的 行列 式 ;trace(M) 表 示 和 矩阵 M 的 迹 ; 


k 为 常数 ， 常 取 0.04~0.06; 加、 如 和 加 是 矩阵 M 的 特征 
具体 的 实现 二 


值 ， 


过 程 详 见 文 献 [10]。 


特征 向 量 之 间 
相似 度 越 大 。 本 文 也 基于 这 
具体 到 


照相 似 度 的 大 小 进行 


为 互 ={fj|j=L2,…,n} 。 其 中 ，/ 表 示 第 j 个 时 空 兴 趣 


征 向 量 。 


相似 度 计算 
对 于 每 一 个 视频 提取 的 特 和 


正 向量， 本 文 首先 采用 模糊 k 均 
向 量 中 各 个 时 空 兴趣 点 的 梯度 向 量 进 行 聚 
向 量 的 抗 干扰 能 力 , 实现 过 程 可 以 参考 文献 [12]。 
量 为 ce， 那么 特征 向 量 包 , 聚 类 之 后 可 以 表示 为 


ee 


后 视频 v 的 特 


ee 
量 与 数据 库 中 各 个 视频 的 聚 类 特征 向 量 之 间 的 相似 度 ， 并 

排序 。 两 个 聚 类 特征 向 量 之 间 的 相似 度 
忆 们 对 应 的 两 个 视频 越 相关 。 
两 个 视频 之 间 的 相似 度 可 以 通过 其 对 应 的 两 个 聚 类 
的 距离 来 反映 ， 距 离 越 近 ， 说 明 两 个 视频 之 间 的 
思想 设计 视频 相似 度 的 计算 公式 。 


聚 类 之 后 的 特征 向 量 ， 考 虑 到 该 特征 向 量 包含 了 c 类 梯 


说 明 


:也 省 
坦 吊 ， 


有 反问 至 


同一 类 视频 在 不 同 的 采集 片段 可 能 存在 尺度 、 位 置 、 


时 ， 


时 序 等 方面 的 差异 ， 这 种 情况 下 ， 两 个 聚 类 特征 向 量 中 的 类 


梯度 向 量 一 般 不 是 一 一 对 应 的 。 因 此 ， 本 文 先 计算 


个 聚 类 特 


A 


征 向 


两 类 梯度 向 量 构建 一 个 梯度 向 量 对 ， 通 过 


度 向 


量 中 任意 两 类 梯度 向 量 之 间 的 距离 ， 选 择 拥 有 最 小 距离 的 
这 样 的 方式 将 c 类 梯 


量 的 对 应 关系 确定 下 来 。 同 时 ， 考 虑 到 尺度 、 位 置 等 因素 


的 影响 可 能 导致 梯度 特征 向 量 在 模 值 上 存在 较 大 差异 ， 璧 如 离 


摄像 机 越 近 的 


标 梯度 模 值 越 大 ， 而 离 摄像 机 越 远 的 目标 梯度 


模 值 越 小 。 


然后 


述 视频 相似 度 的 计算 方式 。 


Vv; 和 


六 | 


此 ， 本 文 引入 模糊 权重 对 梯度 向 量 进行 归 一 化 ， 
归 一 化 的 距离 来 计算 两 个 聚 类 向 量 之 间 的 相似 度 。 下 面 详 


海 


假设 v 表 示 待 查询 视频 ，vj 表示 数据 库 中 某 一 视频 ， 视 频 


n 


vj 对 应 的 聚 类 特征 向 量 分 别 记 为 5 和 F099 。 那 么 ， 对 了 
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Ay 


录用 稿 


来 类 特征 向 量 对 (FO,FO) ，FG 的 第 p 类 梯度 向 量 和 FO 的 第 


4 类 梯度 向 量 之 间 的 距离 可 以 记 为 4, (Pp,4) 。 本 文采 用 欧 氏 距 


离 测 度 ， 于 是 有 


ds (P0=| 5 -#0| (0) 


9 的 第 p 类 梯度 向 量 和 FO 的 第 g 类 梯度 向 量 之 间 的 模糊 权 


重 可 以 记 为 WwW。(P,9) ,计算 公式 为 


ww (p,q)= 引 


JI 
(7) 


其 中 : f 为 模糊 常量 。 在 本 文中 , f 取 值 为 0.3。 


这 样 ， 聚 类 特征 向 量 对 (FO,FO) 中 的 。 类 梯度 向 量 的 模 
糊 权 重 可 以 构建 一 个 cxc 的 模糊 权重 矩阵 ， 记 为 
[ww (41) w, (2) … w,, (lc) 
| | | 而 
CD wm (62) (ee) 
聚 类 特征 向 量 FO 中 的 第 p 类 梯度 向 量 所 对 应 的 聚 类 特征 


向 量 9 中 的 梯度 向 量 序号 可 以 表示 为 


严 =min(w (p.9)d,,, (p,q) (9) 


其 中 : C 表示 序号 q 的 取 值 集合 。 这 里 需要 说 明 的 是 ， 在 从 聚 


类 特征 向 量 FO 的 c 类 梯度 向 量 中 寻找 与 聚 类 特征 向 量 FO 的 


第 p 类 梯度 向 量 相 匹配 的 梯度 向 量 时 ， 如 果菜 一 类 梯度 向 量 已 
经 被 选择 为 对 方 的 梯度 向 量 对 ， 那 么 下 一 次 寻找 过 程 中 该 梯度 


向 量 就 不 再 参与 运算 .也 即 第 一 次 寻找 时 ，C = { 呈 =12……c}; 
第 二 次 寻找 时 ，C = {于 =1,2,…,c;i1*}。 这里，1* 表 示 聚 类 特 


征 向 量 FE 的 第 1 类 梯度 向 量 从 要 聚 类 特征 向 量 FO 中 找到 的 匹 


配 梯度 向 量 的 序号 。 依 此 类 推 ， 每 次 搜索 时 集合 C 的 元 素数 量 
都 会 减少 1。 


聚 类 特征 向 量 书 聚 类 特征 向 


这 样 ， 标 


9 的 第 p 类 梯度 向 量 和 


量 FO 的 第 p* 类 梯度 向 量 组 成 一 个 FO 和 ) 之 间 的 一 个 梯 


ChinaXiv 合 作 期 刊 
加 取 的 高 频 检 过 


张 涵 ， 等 : 模糊 


度 向 量 对 (AiO ,Ai.) 。 类 似 地 ， 可 以 得 到 FO 和 天 9 之 间 的 其 
余 c-1 个 梯度 向 量 对 。 
于 是 ， 聚 类 特征 向 量 FO 和 与 聚 类 特征 向 量 RO 之 间 的 距 


个 梯度 向 量 对 之 间 模 糊 距离 的 平均 值 来 表示 为 
= (w。 (kk*)ad,, (KK 区 ]] (10) 


距离 越 近 ， 明 两 个 视频 之 间 的 相似 度 越 大 。 因 此 ， 视 频 v， 
和 vj 之 间 的 相似 度 可 以 表示 为 


离 可 以 用 ¢c 


Sy, = (11) 


其 中 : 2 为 一 个 非常 小 的 正 数 ， 用 于 
取 值 为 0.000 01。 
2.4 ”相关 视频 输出 

对 于 待 检索 的 视频 ， 按 照 上 述 步 又 计算 其 与 数据 库 中 所 有 
视频 之 间 的 相似 度 ,然后 按照 相似 度 从 大 到 小 的 顺序 进行 排列 ， 
相似 度 越 大 ， 对 应 的 视频 之 间 的 相关 性 越 强 。 在 视频 检索 时 ， 
往往 需要 检索 的 视频 数量 不 止 一 个 。 通 常 需要 设置 一 个 查询 余 
量 参数 ， 记 为 U。 也 就 是 说 ， 每 一 次 检索 都 输出 U 个 相关 视频 
作为 检索 结果 。 在 本 文中 ， 相 似 度 降序 排列 之 后 ， 输 出 前 如 个 
相似 度 所 对 应 的 数据 库 中 的 U 个 视频 作为 检索 结果 。 


3 ”实验 分 析 


由 于 人 体 动作 视频 检索 领域 目前 没有 专门 公开 的 测试 数据 
库 ， 所 以 本 章 使 用 人 体 动 作 行 为 识别 领域 常用 的 KTH 数据 库 
进行 视频 检索 实验 。 该 数据 库 是 人 体 动作 行为 识别 领域 的 一 个 
大 规模 数据 库 ， 包 含 2 391 个 视频 片段 ， 每 一 个 视频 片段 中 包 
含 一 个 人 体重 复 的 单一 动作 ， 共 有 6 种 动作 ， 分 别 是 行走 、 慢 
跑 、 跑 、 拳 击 、 挥 手 和 拍手 ， 如 图 3 所 示 。 动 作 的 执行 者 共有 
25 人 ， 视 频 拍摄 场景 有 4 种。 视频 中 人 体 的 着 装 、 尺 度 都 有 变 
化 。 视 频 的 分 辨 率 为 160X120， 视 频 的 帧 率 为 25 fps。 


避免 除数 为 零 。 在 本 文中 


图 3 KTH 数据 库 动作 示例 


本 文 在 KTH 数据 库 上 进行 人 体 动作 视频 的 检索 实验 ， 统 
计 视 频 检索 性 能 指标 。 这 里 参考 图 像 检索 领域 常用 的 精确 度 
(precision) 和 召回 率 (recall 两 个 指标 来 评价 视频 检索 算法 
的 准确 性 ， 同 时 采用 检索 耗 时 指标 来 评价 视频 检索 算法 的 运算 
效率 。 在 本 文 实验 中 ， 每 一 类 行为 都 选择 数据 库 中 的 前 100 个 
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IV: 


chinaX 


录用 稿 


视频 作为 查询 
U 统 
然后 对 比 不 司 
本 文 方法 的 
在 上 文 的 介绍 中 可 以 发 现 ， 本 文 方法 还 有 
c。 该 参数 对 视频 检索 的 准 


3.1 


值 ， 


为 


设 


视频 ， 其 
20。 下 硬 


4 


也 视频 作为 检索 数据 库 。 


查询 余 量 参数 


目 


先 详 旨 


测 


影响 的 , 通常 
不 同行 


差 。 


率 


下 面 ; 


即 聚 类 中 心 数量 


之 间 的 


给 索 准确 | 


性 测试 


试 本 文 方法 


区 分 能 


青 况 下 , 聚 类 中 心 数量 越 大 , 特征 向 
越 强 ， 但 相同 行为 之 间 


的 检索 准确 性 ， 


的 视频 检索 方法 综合 评价 本 文 方法 性 能 。 


个 参数 没有 


确 性 是 有 较 大 


量 划 分 越 细 ， 
的 容错 能 力 越 


比 不 同 参数 c 条 件 下 的 平均 精确 度 和 平均 如 下 


前 标 来 选择 最 优 的 聚 类 


区 


到 4 可 以 看 出 ， 


I 


率 都 是 最 大 的 。 因 


a 


此 ， 本 文 方法 


P 心 数量 参数 。 医 


图 4 给 


了 测试 结果 。 


参数 c 取 值 为 6 时 ， 平 均 精 


确 度 和 平均 召 


Fh 参数 c 取 值 为 6。 此 时 ， 


本 文 方法 的 平均 精确 度 和 了 


也 


F 均 召 


一 + 一 平均 精确 度 


一 9 一 平均 召回 率 


到 


3.2 不 同方 法 的 视频 检索 性 能 对 比 
人 体 动作 视频 检索 是 近 些 年 才 冰 


4 ”参数 c 取 值 实验 结果 


面 的 研究 成 果 不 多 。 文献 [5~7] 是 


C 行 的 研究 课 


率 分 别 是 78.1% 和 73.8%。 


题 ， 目 前 这 方 


前 人 体 动作 视频 检索 领域 比 


较 典 型 的 检索 方法 。 本 文选 择 这 三 种 方法 进行 对 比 实验 ， 实 验 
数据 库 、 检 索 视频 、 查 询 余 量 参数 以 及 实验 计算 机 平台 都 与 本 


文 方法 相同 ， 计 算 机 3 


平均 值 是 指 平均 精确 度 和 平均 召 
的 综合 指标 。 平 均 检 索 耗 时 的 单 


表 1 


不 同方 法 的 


I 


FEF 台 性 能 为 Intel I5 CPU、16 GB RAM.、 
Windows 7 64bit、Visual Studio 2013 。 实 验 结 果 见 表 1。 其 中 ， 


率 的 平均 值 ，) 
是 s。 


视频 检索 指标 


于 反映 两 者 


方法 


平均 精确 度 


平均 召 


互 
A 


平均 值 


平均 检索 耗 时 


区 
x 
3 


献 [5] 方 法 
献 [6] 方 法 
献 [7] 方 法 


本 文 方法 


67.3% 
71.6% 
78.8% 
78.1% 


59.4% 
72.9% 
69.7% 
73.8% 


63.4% 
72.3% 
74.3% 
76.0% 


73 
166 
231 
59 


指标 是 


低 于 文献 [7] 方 法 


四 种 方 没 


中 最 高 的 ， 


种 方法 中 最 高 的 。 也 就 是 说 ， 综 合 平均 精确 度 和 
个 指标 ， 本 文 方法 
测 耗 时 明显 低 于 其 他 三 种 方法 ， 这 说 明 本 文 方法 


表 1 可 以 看 出 ， 在 同等 条 件 下 ， 本 文 方法 的 平均 召 臣 


率 


尽管 本 文 方法 的 平均 
但 是 从 两 者 的 均值 来 对 比 ， 本 文 方法 仍 是 四 


精确 度 指 标 略 


于 其 他 三 种 方法 。 


而 且 本 文 


平均 召回 率 丙 
方法 的 平均 检 


的 检索 效率 明 


显 高 于 其 他 三 种 方法 ， 这 对 于 视频 检索 系统 而 言 


是 非常 有 意义 


4 


媒体 领域 有 着 广阔 的 应 


等 : 模糊 加 权 的 高 效 章 棒 人 体 动作 视频 检索 


结束 语 


人 体 动作 视频 检索 是 一 项 较 新 的 研究 课题 ， 在 互联 网 、 多 
前 景 。 鉴 于 视频 检索 系统 对 检索 效率 


的 较 高 要 求 ， 本 文 提出 了 一 种 高 效 的 人 体 动作 视频 检索 方法 。 


该 方法 在 传统 的 基于 时 空 兴趣 点 和 梯度 
础 上 ， 引 入 模糊 聚 类 方法 构建 聚 类 特有 
抗 干 扰 能 力 。 同 时 ， 在 检索 过 程 中 先 匹 配 聚 类 特征 


的 


言 恩 提 取 特 征 


名 量 ， 提 高 了 


司 量 的 者 
特 4 
可 量 中 的 


T 


上 回 量 


梯 


提 


仅 精确 度 和 召回 率 综合 指标 高 ,而 


高 相似 度 计算 的 鲁 棒 性 。 通 过 实验 对 比 ， 


对 构建 模糊 权重 矩阵 ,对 欧 氏 距离 测度 进行 修正 ， 
验证 了 本 文 方法 不 
检索 耗 时 少 ,检索 效率 高 。 


度 向 量 对 ， 
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